# Reads MCMV data pre-organized by *presidential*  electoral period
# Merges it all, and then reads and merges in electoral data
# There is an equivalent code for local (municipal/mayoral) electoral periods

# Data files invoked:
# all.covariates_98.Rda: from CEM
# electionsff_2000_2012.Rda: from github, https://github.com/nataliabueno/close_races
# Data on agreements: from LAI requests
#DADOS MCMV.xlsx --> agreement_orgs.Rda
#Ids: from CEM
#IPCA: from IPEA


library(tidyverse)
library(lubridate)
library(deflateBR)

#functions
source("Code/functions.R")

#IDs for merge
load("DataPrivate/aux_mun_code5570.Rda")

#Standardizing mun_ids info
mun_ids <- mun_ids %>% mutate(nome_mun = toupper(NOME.DO.MUNICÍPIO)) #municipality name
mun_ids$nome_mun <- chartr("ÇÀÁÃÂÉÊÍÓÕÔÚÜ", "CAAAAEEIOOOUU", mun_ids$nome_mun) #municipality name
mun_ids$uf_mun <- paste0(mun_ids$uf_sigla, mun_ids$nome_mun)


####################### Adding indicator for signing agreement for MCMV

#agreement_orgs <- read_xlsx("DataPrivate/DADOS MCMV.xlsx")
#save(agreement_orgs, file = "DataPrivate/agreement_orgs.Rda")

load("DataPrivate/agreement_orgs.Rda")

#Standardizing municipalities names and cleaning
lai <- agreement_orgs %>% mutate(uf_mun = paste0(UF, Município), uf_mun = toupper(uf_mun), 
                                 uf_mun = chartr("ÇÂÃÁÀÉÊÍÔÓÒÕÚÛ", "CAAAAEEIOOOOUU", uf_mun),
                                 uf_mun = gsub("\\'", " ", uf_mun),
                                 uf_mun = gsub("\\-", " ", uf_mun),
                                 uf_mun = str_trim(uf_mun))


#Changing names to join with IDs
lai$uf_mun[lai$uf_mun == "CEITAPAGE"] <- "CEITAPAJE"
lai$uf_mun[lai$uf_mun == "MTPOXOREO"] <- "MTPOXOREU"
lai$uf_mun[lai$uf_mun == "PAELDORADO DOS CARAJAS"] <- "PAELDORADO DO CARAJAS"
lai$uf_mun[lai$uf_mun == "PASANTA ISABEL DO PARAPA"] <- "PASANTA IZABEL DO PARA"
lai$uf_mun[lai$uf_mun == "PBSERIDO"] <- "PBSAO VICENTE DO SERIDO"
lai$uf_mun[lai$uf_mun == "PEBELEM DE SAO FRANCISCO"] <- "PEBELEM DO SAO FRANCISCO"
lai$uf_mun[lai$uf_mun == "PEIGUARACI"] <- "PEIGUARACY"
lai$uf_mun[lai$uf_mun == "PELAGOA DO ITAENGA"] <- "PELAGOA DE ITAENGA"
lai$uf_mun[lai$uf_mun == "RNPRESIDENTE JUSCELINO"] <- "RNSERRA CAIADA"
lai$uf_mun[lai$uf_mun == "SEGRACHO CARDOSO"] <- "SEGRACCHO CARDOSO"
lai$uf_mun[lai$uf_mun == "SPMOJI MIRIM"] <- "SPMOGI MIRIM"
lai$uf_mun[lai$uf_mun == "PASANTA ISABEL DO PARA"] <- "PASANTA IZABEL DO PARA" 
lai$uf_mun[lai$uf_mun == "ROALTA FLORESTA D OESTE"] <- "ROALTA FLORESTA D'OESTE" 
lai$uf_mun[lai$uf_mun == "ALOLHO D AGUA DAS FLORES"] <- "ALOLHO D'AGUA DAS FLORES"
lai$uf_mun[lai$uf_mun ==  "ALOLHO D AGUA DO CASADO"] <- "ALOLHO D'AGUA DO CASADO"
lai$uf_mun[lai$uf_mun == "ALOLHO D AGUA GRANDE"] <- "ALOLHO D'AGUA GRANDE"
lai$uf_mun[lai$uf_mun ==  "ALTANQUE D ARCA"] <- "ALTANQUE D'ARCA"
lai$uf_mun[lai$uf_mun == "BADIAS D AVILA"] <- "BADIAS D'AVILA"
lai$uf_mun[lai$uf_mun == "BAXIQUE XIQUE"] <- "BAXIQUE-XIQUE"
lai$uf_mun[lai$uf_mun == "GOSAO JOAO D ALIANCA"] <- "GOSAO JOAO D'ALIANCA"
lai$uf_mun[lai$uf_mun == "GOSITIO D ABADIA"] <- "GOSITIO D'ABADIA"
lai$uf_mun[lai$uf_mun ==  "MAAPICUM ACU"]   <- "MAAPICUM-ACU"       
lai$uf_mun[lai$uf_mun == "MACONCEICAO DO LAGO ACU"] <- "MACONCEICAO DO LAGO-ACU"
lai$uf_mun[lai$uf_mun == "MAOLHO D AGUA DAS CUNHAS"] <- "MAOLHO D'AGUA DAS CUNHAS"
lai$uf_mun[lai$uf_mun == "MAPINDARE MIRIM"] <- "MAPINDARE-MIRIM"
lai$uf_mun[lai$uf_mun == "MGGUARDA MOR"] <- "MGGUARDA-MOR"
lai$uf_mun[lai$uf_mun == "MGOLHOS D AGUA"]  <- "MGOLHOS-D'AGUA"
lai$uf_mun[lai$uf_mun == "MGSEM PEIXE"]   <- "MGSEM-PEIXE"      
lai$uf_mun[lai$uf_mun == "MTFIGUEIROPOLIS D OESTE"] <- "MTFIGUEIROPOLIS D'OESTE"
lai$uf_mun[lai$uf_mun == "MTLAMBARI D OESTE"] <- "MTLAMBARI D'OESTE"
lai$uf_mun[lai$uf_mun == "MTMIRASSOL D OESTE"] <-"MTMIRASSOL D'OESTE"
lai$uf_mun[lai$uf_mun == "PAIGARAPE ACU"] <- "PAIGARAPE-ACU"
lai$uf_mun[lai$uf_mun == "PAIGARAPE MIRI"]   <- "PAIGARAPE-MIRI"
lai$uf_mun[lai$uf_mun == "PAPAU D ARCO"]  <- "PAPAU D'ARCO"
lai$uf_mun[lai$uf_mun == "PAPEIXE BOI"]   <-  "PAPEIXE-BOI"
lai$uf_mun[lai$uf_mun == "PATOME ACU"]  <- "PATOME-ACU"
lai$uf_mun[lai$uf_mun ==  "PBMAE D AGUA"]  <- "PBMAE D'AGUA"
lai$uf_mun[lai$uf_mun == "PBOLHO D AGUA"] <- "PBOLHO D'AGUA"
lai$uf_mun[lai$uf_mun == "PIBARRA D ALCANTARA"] <- "PIBARRA D'ALCANTARA"
lai$uf_mun[lai$uf_mun ==  "PIOLHO D AGUA DO PIAUI"] <-   "PIOLHO D'AGUA DO PIAUI"
lai$uf_mun[lai$uf_mun == "PIPAU D ARCO DO PIAUI"]  <- "PIPAU D'ARCO DO PIAUI"
lai$uf_mun[lai$uf_mun == "PRITAPEJARA D OESTE"] <- "PRITAPEJARA D'OESTE"
lai$uf_mun[lai$uf_mun == "PRRANCHO ALEGRE D OESTE"] <- "PRRANCHO ALEGRE D'OESTE"
lai$uf_mun[lai$uf_mun == "PRSAO JORGE D OESTE"] <- "PRSAO JORGE D'OESTE"
lai$uf_mun[lai$uf_mun == "RNCEARA MIRIM"] <- "RNCEARA-MIRIM"
lai$uf_mun[lai$uf_mun == "RNGOVERNADOR DIX SEPT ROSADO"]  <- "RNGOVERNADOR DIX-SEPT ROSADO"
lai$uf_mun[lai$uf_mun == "RNLAGOA D ANTA"] <- "RNLAGOA D'ANTA"
lai$uf_mun[lai$uf_mun == "RNOLHO D AGUA DO BORGES"] <- "RNOLHO-D'AGUA DO BORGES"
lai$uf_mun[lai$uf_mun == "RNVENHA VER"]  <- "RNVENHA-VER"
lai$uf_mun[lai$uf_mun == "ROALVORADA D OESTE"] <- "ROALVORADA D'OESTE"
lai$uf_mun[lai$uf_mun == "ROESPIGAO D OESTE"] <- "ROESPIGAO D'OESTE"
lai$uf_mun[lai$uf_mun == "ROGUAJARA MIRIM"] <- "ROGUAJARA-MIRIM"
lai$uf_mun[lai$uf_mun == "ROJI PARANA"] <- "ROJI-PARANA"
lai$uf_mun[lai$uf_mun == "ROMACHADINHO D OESTE"] <- "ROMACHADINHO D'OESTE"
lai$uf_mun[lai$uf_mun == "RONOVA BRASILANDIA D OESTE"] <- "RONOVA BRASILANDIA D'OESTE"
lai$uf_mun[lai$uf_mun == "ROSANTA LUZIA D OESTE"] <- "ROSANTA LUZIA D'OESTE"
lai$uf_mun[lai$uf_mun == "ROSAO FELIPE D OESTE"] <- "ROSAO FELIPE D'OESTE"
lai$uf_mun[lai$uf_mun ==  "RSNAO ME TOQUE"]  <-    "RSNAO-ME-TOQUE"
lai$uf_mun[lai$uf_mun == "RSSANT ANA DO LIVRAMENTO"] <- "RSSANT'ANA DO LIVRAMENTO"
lai$uf_mun[lai$uf_mun == "SEITAPORANGA D AJUDA"]  <-"SEITAPORANGA D'AJUDA"
lai$uf_mun[lai$uf_mun == "SPEMBU GUACU"] <- "SPEMBU-GUACU"
lai$uf_mun[lai$uf_mun == "SPPALMEIRA D OESTE"] <- "SPPALMEIRA D'OESTE"
lai$uf_mun[lai$uf_mun == "SPSANTA BARBARA D OESTE"] <- "SPSANTA BARBARA D'OESTE"
lai$uf_mun[lai$uf_mun == "TOPAU D ARCO"] <- "TOPAU D'ARCO"

#Joining with ID data
#to join with electoral data and covariates data
#Sanity checks before join
stopifnot(nrow(distinct(mun_ids))==5570)
table(is.na(mun_ids$uf_mun)) #No NA
table(is.na(lai$uf_mun)) #No NA

stopifnot(nrow(mun_ids)==length(unique(mun_ids$uf_mun)))

#Joining with IDs
lai <- lai %>% left_join(mun_ids, by = "uf_mun") %>% mutate(SiglaUF = uf_sigla, 
                                                            TSEcod = as.numeric(Cod_TSE_5), 
                                                            IBGEcod = as.numeric(Cod_IBGE), 
                                                            Municipio = toupper(NOME.DO.MUNICÍPIO), 
                                                            Municipio = chartr("ÇÀÁÃÂÉÊÍÓÕÔÚÜ", "CAAAAEEIOOOUU", 
                                                                               Municipio)) 

#Select earlier agreement per municipality 
lai <- lai %>% filter(Modalidade != "Entidades")

##################################### RDD data 

#Covariate data for RDD
load("DataPrivate/all.covariates_98.Rda")
all.covariates <- as_tibble(all.covariates)

#Election data for RDD
load("DataPrivate/electionsff_2000_2012.Rda")
electionsff <- as_tibble(electionsff)

#Recoding
lai <- lai %>% mutate(cycle = ifelse(year(`Data de Ass do Contrato`) <= 2012, 1, 2),
                      years = year(`Data de Ass do Contrato`))

#Joining with Inflation data
lai <- lai %>% left_join(ipca2, by = "years") %>% dplyr::select(-c(ano:doze_meses))

stopifnot(nrow(lai)==9024)

######################################################################
############### Getting Ready for RDD (accounting for impeachment, using only 2 candidates)
######################################################################

#Empresas ALL
empresas <- lai %>% 
  mutate(cycle = ifelse(year(`Data de Ass do Contrato`) <= 2012, 1, 2),
         year = year(`Data de Ass do Contrato`), 
         month = month(`Data de Ass do Contrato`), 
         day =  day(`Data de Ass do Contrato`), 
         actual_dates = as.Date(`Data de Ass do Contrato`))

#How many agreements signed after impeachment?
table(empresas$year, empresas$month)
#em2016 <- empresas %>% filter(year == 2016)
#table(em2016$month, em2016$day) #Only 7 Agreements signed after the removal and impeachment
#final <- empresas %>% filter(year == 2016, month == 5)
#final$munuf
#final %>% group_by(munuf) %>% summarise(sumv = sum(`Valor Contratado (R$)`))

#"SAO JOSE DA LAJEAL" # PMDB (59 in favor and 7 opposed to impeachment)
#"Sao Luis do Maranhao" #PTC
#IJui RS #PDT (6 in favor 12 opposed to impeachment)
#COLINAS DO TOCANTINSTO #PT

#Recoding for analysis
empresas <- empresas %>% mutate(uh_contratadas = ifelse(is.na(`Unidades Contratadas`), 0, `Unidades Contratadas`),
                                uh_concluidas = ifelse(is.na(`Unidades Concluídas`), 0, `Unidades Concluídas`),
                                uh_entregues = ifelse(is.na(`Unidades Entregues`), 0, `Unidades Entregues`),
                                valor_contratado = ifelse(is.na(`Valor Contratado (R$)`), 0, `Valor Contratado (R$)`),
                                pmcmv = ifelse(is.na(`Valor Contratado (R$)`), 0, 1), 
                                valor_contratadod = deflate(valor_contratado, actual_dates, "01/2018", "ipca"),
                                impeachment = ifelse(year == 2016 & month > 5 & day > 12, 1, 0))

#Removing seven cases post-impeachment for PT RDD
empresas_noimps <- empresas %>% filter(!impeachment == 1)

#Aggregating by municipality-electoral cycle
empresas_0 <- empresas %>% group_by(cycle, TSEcod) %>% summarise(pmcmv_num = sum(pmcmv), 
                                                                 uh_contratadas_sum = sum(uh_contratadas),
                                                                 uh_concluidas_sum = sum(uh_concluidas),
                                                                 uh_entregues_sum = sum(uh_entregues),
                                                                 valor_contratadod_sum = sum(valor_contratadod))

#Aggregating by municipality-electoral cycle
empresas_0noimp <- empresas_noimps %>% group_by(cycle, TSEcod) %>% summarise(pmcmv_num = sum(pmcmv), 
                                                                             uh_contratadas_sum = sum(uh_contratadas),
                                                                             uh_concluidas_sum = sum(uh_concluidas),
                                                                             uh_entregues_sum = sum(uh_entregues),
                                                                             valor_contratadod_sum = sum(valor_contratadod))

#Aggregating by municipality-electoral cycle PP
empresas_pp <- empresas %>% filter(!year > 2014)

empresas_0pp <- empresas_pp %>% group_by(cycle, TSEcod) %>% summarise(pmcmv_num = sum(pmcmv), 
                                                                      uh_contratadas_sum = sum(uh_contratadas),
                                                                      uh_concluidas_sum = sum(uh_concluidas),
                                                                      uh_entregues_sum = sum(uh_entregues),
                                                                      valor_contratadod_sum = sum(valor_contratadod))

#Aggregating by municipality-electoral cycle PSD
empresas_psd <- empresas %>% filter(year == 2015)

#Very few cases
empresas_0psd <- empresas_psd %>% group_by(cycle, TSEcod) %>% summarise(pmcmv_num = sum(pmcmv), 
                                                                        uh_contratadas_sum = sum(uh_contratadas),
                                                                        uh_concluidas_sum = sum(uh_concluidas),
                                                                        uh_entregues_sum = sum(uh_entregues),
                                                                        valor_contratadod_sum = sum(valor_contratadod))


#Election data
electionsff_pt0812 <- electionsff %>% mutate(cycle = ifelse(ANO_ELEICAO == 2008, 1, 
                                                            ifelse(ANO_ELEICAO == 2012, 2, 0))) %>% 
  filter(SIGLA_PARTIDO == "PT", NUMBER_CANDIDATES == 2,
         TYPE_ELECTION == "regular", cycle != 0) %>% 
  rename(TSEcod = SIGLA_UE)


electionsff_pp0812 <- electionsff %>% mutate(cycle = ifelse(ANO_ELEICAO == 2008, 1, 
                                                            ifelse(ANO_ELEICAO == 2012, 2, 0))) %>% 
  filter(SIGLA_PARTIDO == "PP", NUMBER_CANDIDATES == 2,
         TYPE_ELECTION == "regular", cycle != 0) %>% 
  rename(TSEcod = SIGLA_UE)


electionsff_pmdb0812 <- electionsff %>% mutate(cycle = ifelse(ANO_ELEICAO == 2008, 1,
                                                              ifelse(ANO_ELEICAO == 2012, 2, 0))) %>% filter(SIGLA_PARTIDO == "PMDB",
                                                                                                             TYPE_ELECTION == "regular", cycle != 0, NUMBER_CANDIDATES == 2) %>%
  rename(TSEcod = SIGLA_UE)

#Join with electoral data
empresas_g <- electionsff_pt0812 %>% left_join(empresas_0, by = c("TSEcod", "cycle"))
stopifnot(nrow(empresas_g)==nrow(electionsff_pt0812))

empresas_g_noimp <- electionsff_pt0812 %>% left_join(empresas_0noimp, by = c("TSEcod", "cycle"))
stopifnot(nrow(empresas_g)==nrow(electionsff_pt0812))

empresas_gpp <- electionsff_pp0812 %>% left_join(empresas_0pp, by = c("TSEcod", "cycle"))
stopifnot(nrow(empresas_gpp)==nrow(electionsff_pp0812))

empresas_gpmdb <- electionsff_pmdb0812 %>% left_join(empresas_0, by = c("TSEcod", "cycle"))
stopifnot(nrow(empresas_gpmdb)==nrow(electionsff_pmdb0812))

#Join with population data
pop <- all.covariates %>% rename(TSEcod = TSECod)
empresas_g <- empresas_g %>% left_join(pop, by = "TSEcod")
empresas_g_noimp <- empresas_g_noimp %>% left_join(pop, by = "TSEcod")

empresas_gpp <- empresas_gpp %>% left_join(pop, by = "TSEcod")
stopifnot(nrow(empresas_gpp)==nrow(electionsff_pp0812))

empresas_gpmdb <- empresas_gpmdb %>% left_join(pop, by = "TSEcod")
stopifnot(nrow(empresas_gpmdb)==nrow(electionsff_pmdb0812))

#Missing population data PT
empresas_g$pop_v2 <- empresas_g$X2000_pop
empresas_g[empresas_g$TSEcod == 55050,]$pop_v2 <- 5251  #estimates for 2016
empresas_g[empresas_g$TSEcod == 89788,]$pop_v2 <- 26381 #2010 census
empresas_g[empresas_g$TSEcod == 91006,]$pop_v2 <- 3607  #2010 census
empresas_g[empresas_g$TSEcod == 58467,]$pop_v2 <- 170185 #2010 census
empresas_g[empresas_g$TSEcod == 88986,]$pop_v2 <- 4394 #2010 census
empresas_g[empresas_g$TSEcod == 89206,]$pop_v2 <- 2141 #2010 census
empresas_g[empresas_g$TSEcod == 89281,]$pop_v2 <- 2662 #2010 census
empresas_g[empresas_g$TSEcod == 89281,]$pop_v2 <- 2662 #2010 census
empresas_g[empresas_g$TSEcod == 89486,]$pop_v2 <- 1886 #2010 census
empresas_g[empresas_g$TSEcod == 89524,]$pop_v2 <- 2793 #2010 census
empresas_g[empresas_g$TSEcod == 89960,]$pop_v2 <- 3604 #2010 census   
empresas_g[empresas_g$TSEcod == 91081,]$pop_v2 <- 5123 #2010 census
empresas_g[empresas_g$TSEcod == 12726,]$pop_v2 <- 8068 #2010 census 
empresas_g[empresas_g$TSEcod == 89320,]$pop_v2 <- 1757 #2010 census

#Missing population data PT
empresas_g_noimp$pop_v2 <- empresas_g_noimp$X2000_pop
empresas_g_noimp[empresas_g_noimp$TSEcod == 55050,]$pop_v2 <- 5251  #estimates for 2016
empresas_g_noimp[empresas_g_noimp$TSEcod == 89788,]$pop_v2 <- 26381 #2010 census
empresas_g_noimp[empresas_g_noimp$TSEcod == 91006,]$pop_v2 <- 3607  #2010 census
empresas_g_noimp[empresas_g_noimp$TSEcod == 58467,]$pop_v2 <- 170185 #2010 census
empresas_g_noimp[empresas_g_noimp$TSEcod == 88986,]$pop_v2 <- 4394 #2010 census
empresas_g_noimp[empresas_g_noimp$TSEcod == 89206,]$pop_v2 <- 2141 #2010 census
empresas_g_noimp[empresas_g_noimp$TSEcod == 89281,]$pop_v2 <- 2662 #2010 census
empresas_g_noimp[empresas_g_noimp$TSEcod == 89281,]$pop_v2 <- 2662 #2010 census
empresas_g_noimp[empresas_g_noimp$TSEcod == 89486,]$pop_v2 <- 1886 #2010 census
empresas_g_noimp[empresas_g_noimp$TSEcod == 89524,]$pop_v2 <- 2793 #2010 census
empresas_g_noimp[empresas_g_noimp$TSEcod == 89960,]$pop_v2 <- 3604 #2010 census   
empresas_g_noimp[empresas_g_noimp$TSEcod == 91081,]$pop_v2 <- 5123 #2010 census
empresas_g_noimp[empresas_g_noimp$TSEcod == 12726,]$pop_v2 <- 8068 #2010 census 
empresas_g_noimp[empresas_g_noimp$TSEcod == 89320,]$pop_v2 <- 1757 #2010 census

#Missing population data PP
empresas_gpp$pop_v2 <- empresas_gpp$X2000_pop
empresas_gpp[empresas_gpp$TSEcod == 89567,]$pop_v2 <- 2212 #2010 census
empresas_gpp[empresas_gpp$TSEcod == 89960,]$pop_v2 <- 3604 #2010 census
empresas_gpp[empresas_gpp$TSEcod == 91006,]$pop_v2 <- 3607  #2010 census
empresas_gpp[empresas_gpp$TSEcod == 89206,]$pop_v2 <- 2141 #2010 census
empresas_gpp[empresas_gpp$TSEcod == 89281,]$pop_v2 <- 2662 #2010 census
empresas_gpp[empresas_gpp$TSEcod == 89486,]$pop_v2 <- 1886 #2010 census
empresas_gpp[empresas_gpp$TSEcod == 89960,]$pop_v2 <- 3604 #2010 census
empresas_gpp[empresas_gpp$TSEcod == 91081,]$pop_v2 <- 5123 #2010 census
empresas_gpp[empresas_gpp$TSEcod == 89320,]$pop_v2 <- 1757 #2010 census
empresas_gpp[empresas_gpp$TSEcod == 30775,]$pop_v2 <- 14191 #2010 census
empresas_gpp[empresas_gpp$TSEcod == 93564,]$pop_v2 <- 3275 #2010 census
empresas_gpp[empresas_gpp$TSEcod == 93548,]$pop_v2 <- 2844
empresas_gpp[empresas_gpp$TSEcod == 89826,]$pop_v2 <- 3468
empresas_gpp[empresas_gpp$TSEcod == 90980,]$pop_v2 <- 1900
empresas_gpp[empresas_gpp$TSEcod == 89028,]$pop_v2 <- 2739
empresas_gpp[empresas_gpp$TSEcod == 89044,]$pop_v2 <- 2441
empresas_gpp[empresas_gpp$TSEcod == 89060,]$pop_v2 <- 2425
empresas_gpp[empresas_gpp$TSEcod == 89087,]$pop_v2 <- 2200
empresas_gpp[empresas_gpp$TSEcod == 89109,]$pop_v2 <- 1807
empresas_gpp[empresas_gpp$TSEcod == 89141,]$pop_v2 <- 3104
empresas_gpp[empresas_gpp$TSEcod == 89168,]$pop_v2 <- 1528
empresas_gpp[empresas_gpp$TSEcod == 89184,]$pop_v2 <- 1725
empresas_gpp[empresas_gpp$TSEcod == 89222,]$pop_v2 <- 2479
empresas_gpp[empresas_gpp$TSEcod == 89249,]$pop_v2 <- 2584
empresas_gpp[empresas_gpp$TSEcod == 89265,]$pop_v2 <- 2507
empresas_gpp[empresas_gpp$TSEcod == 89362,]$pop_v2 <- 2130
empresas_gpp[empresas_gpp$TSEcod == 89389,]$pop_v2 <- 1775
empresas_gpp[empresas_gpp$TSEcod == 89400,]$pop_v2 <- 2546
empresas_gpp[empresas_gpp$TSEcod == 89508,]$pop_v2 <- 2724
empresas_gpp[empresas_gpp$TSEcod == 30007,]$pop_v2 <- 60105
empresas_gpp[empresas_gpp$TSEcod == 93548,]$pop_v2 <- 2844
empresas_gpp[empresas_gpp$TSEcod == 91022,]$pop_v2 <- 3052
empresas_gpp[empresas_gpp$TSEcod == 89800,]$pop_v2 <- 4866
empresas_gpp[empresas_gpp$TSEcod == 89044,]$pop_v2 <- 2441
empresas_gpp[empresas_gpp$TSEcod == 89087,]$pop_v2 <- 2200
empresas_gpp[empresas_gpp$TSEcod == 89362,]$pop_v2 <- 2130
empresas_gpp[empresas_gpp$TSEcod == 89141,]$pop_v2 <- 3104
empresas_gpp[empresas_gpp$TSEcod == 89508,]$pop_v2 <- 2724
empresas_gpp[empresas_gpp$TSEcod == 89168,]$pop_v2 <- 1528
empresas_gpp[empresas_gpp$TSEcod == 89265,]$pop_v2 <- 2507
empresas_gpp[empresas_gpp$TSEcod == 89222,]$pop_v2 <- 2479
empresas_gpp[empresas_gpp$TSEcod == 89060,]$pop_v2 <- 2425
empresas_gpp[empresas_gpp$TSEcod == 89460,]$pop_v2 <- 2082
empresas_gpp[empresas_gpp$TSEcod == 89389,]$pop_v2 <- 1775
empresas_gpp[empresas_gpp$TSEcod == 89109,]$pop_v2 <- 1807
empresas_gpp[empresas_gpp$TSEcod == 89028,]$pop_v2 <- 2739
empresas_gpp[empresas_gpp$TSEcod == 89249,]$pop_v2 <- 2584
empresas_gpp[empresas_gpp$TSEcod == 89400,]$pop_v2 <- 2546

#Missing population data PMDB
empresas_gpmdb$pop_v2 <- empresas_gpmdb$X2000_pop
empresas_gpmdb[empresas_gpmdb$TSEcod == 55050,]$pop_v2 <- 5251  #estimates for 2016
empresas_gpmdb[empresas_gpmdb$TSEcod == 89788,]$pop_v2 <- 26381 #2010 census
empresas_gpmdb[empresas_gpmdb$TSEcod == 58467,]$pop_v2 <- 170185 #2010 census
empresas_gpmdb[empresas_gpmdb$TSEcod == 88986,]$pop_v2 <- 4394 #2010 census
empresas_gpmdb[empresas_gpmdb$TSEcod == 12726,]$pop_v2 <- 8068 #2010 census
empresas_gpmdb[empresas_gpmdb$TSEcod == 89320,]$pop_v2 <- 1757 #2010 census
empresas_gpmdb[empresas_gpmdb$TSEcod == 89320,]$pop_v2 <- 1757 #2010 census
empresas_gpmdb[empresas_gpmdb$TSEcod == 93564,]$pop_v2 <- 3275 #2010 census
empresas_gpmdb[empresas_gpmdb$TSEcod == 93548,]$pop_v2 <- 2844
empresas_gpmdb[empresas_gpmdb$TSEcod == 89826,]$pop_v2 <- 3468
empresas_gpmdb[empresas_gpmdb$TSEcod == 89044,]$pop_v2 <- 2441
empresas_gpmdb[empresas_gpmdb$TSEcod == 89060,]$pop_v2 <- 2425
empresas_gpmdb[empresas_gpmdb$TSEcod == 89109,]$pop_v2 <- 1807
empresas_gpmdb[empresas_gpmdb$TSEcod == 89141,]$pop_v2 <- 3104
empresas_gpmdb[empresas_gpmdb$TSEcod == 89168,]$pop_v2 <- 1528
empresas_gpmdb[empresas_gpmdb$TSEcod == 89184,]$pop_v2 <- 1725
empresas_gpmdb[empresas_gpmdb$TSEcod == 89222,]$pop_v2 <- 2479
empresas_gpmdb[empresas_gpmdb$TSEcod == 89249,]$pop_v2 <- 2584
empresas_gpmdb[empresas_gpmdb$TSEcod == 89362,]$pop_v2 <- 2130
empresas_gpmdb[empresas_gpmdb$TSEcod == 89389,]$pop_v2 <- 1775
empresas_gpmdb[empresas_gpmdb$TSEcod == 89400,]$pop_v2 <- 2546
empresas_gpmdb[empresas_gpmdb$TSEcod == 30007,]$pop_v2 <- 60105
empresas_gpmdb[empresas_gpmdb$TSEcod == 93548,]$pop_v2 <- 2844
empresas_gpmdb[empresas_gpmdb$TSEcod == 91022,]$pop_v2 <- 3052
empresas_gpmdb[empresas_gpmdb$TSEcod == 89044,]$pop_v2 <- 2441
empresas_gpmdb[empresas_gpmdb$TSEcod == 89362,]$pop_v2 <- 2130
empresas_gpmdb[empresas_gpmdb$TSEcod == 89141,]$pop_v2 <- 3104
empresas_gpmdb[empresas_gpmdb$TSEcod == 89168,]$pop_v2 <- 1528
empresas_gpmdb[empresas_gpmdb$TSEcod == 89222,]$pop_v2 <- 2479
empresas_gpmdb[empresas_gpmdb$TSEcod == 89060,]$pop_v2 <- 2425
empresas_gpmdb[empresas_gpmdb$TSEcod == 89389,]$pop_v2 <- 1775
empresas_gpmdb[empresas_gpmdb$TSEcod == 89109,]$pop_v2 <- 1807
empresas_gpmdb[empresas_gpmdb$TSEcod == 89249,]$pop_v2 <- 2584
empresas_gpmdb[empresas_gpmdb$TSEcod == 89400,]$pop_v2 <- 2546
empresas_gpmdb[empresas_gpmdb$TSEcod == 88986,]$pop_v2 <- 4394 #2010 census
empresas_gpmdb[empresas_gpmdb$TSEcod == 55069,]$pop_v2 <- 2928 #2010 census
empresas_gpmdb[empresas_gpmdb$TSEcod == 88986,]$pop_v2 <- 4394 #2010 census
empresas_gpmdb[empresas_gpmdb$TSEcod == 90921,]$pop_v2 <- 1365 #2010 census
empresas_gpmdb[empresas_gpmdb$TSEcod == 83925,]$pop_v2 <- 9908 #pop in 2016
empresas_gpmdb[empresas_gpmdb$TSEcod == 27065,]$pop_v2 <- 12029
empresas_gpmdb[empresas_gpmdb$TSEcod == 56308,]$pop_v2 <- 10869
empresas_gpmdb[empresas_gpmdb$TSEcod == 90948,]$pop_v2 <- 2005
empresas_gpmdb[empresas_gpmdb$TSEcod == 12718,]$pop_v2 <- 3757
empresas_gpmdb[empresas_gpmdb$TSEcod == 89125,]$pop_v2 <- 1754
empresas_gpmdb[empresas_gpmdb$TSEcod == 89346,]$pop_v2 <- 2196
empresas_gpmdb[empresas_gpmdb$TSEcod == 89247,]$pop_v2 <- 1655
empresas_gpmdb[empresas_gpmdb$TSEcod == 27065,]$pop_v2 <- 12029
empresas_gpmdb[empresas_gpmdb$TSEcod == 93602,]$pop_v2 <- 1254
empresas_gpmdb[empresas_gpmdb$TSEcod == 90948,]$pop_v2 <- 2005 #Date unclear
empresas_gpmdb[empresas_gpmdb$TSEcod == 89843,]$pop_v2 <- 3754
empresas_gpmdb[empresas_gpmdb$TSEcod == 91103,]$pop_v2 <- 5276
empresas_gpmdb[empresas_gpmdb$TSEcod == 16306,]$pop_v2 <- 3582 #date unclear
empresas_gpmdb[empresas_gpmdb$TSEcod == 89247,]$pop_v2 <- 1655
empresas_gpmdb[empresas_gpmdb$TSEcod == 89125,]$pop_v2 <- 1754
empresas_gpmdb[empresas_gpmdb$TSEcod == 89346,]$pop_v2 <- 2196

#More recoding for analysis
empresas_g <- empresas_g %>% mutate(valor_contratadod_sum0 = ifelse(is.na(valor_contratadod_sum), 0, valor_contratadod_sum),
                                    valor_contratadodpc = valor_contratadod_sum0/pop_v2, 
                                    valor_contratadodpcl = inv_hyp(valor_contratadod_sum0/pop_v2), 
                                    valor_contratadodpcl2 = log(1 + valor_contratadodpc), 
                                    treat = ifelse(DESC_SIT_TOT_TURNO == "ELEITO", 1, 0), 
                                    nonzero = ifelse(is.na(pmcmv_num), 0, 1))

#More recoding for analysis
empresas_g_noimp <- empresas_g_noimp %>% mutate(valor_contratadod_sum0 = ifelse(is.na(valor_contratadod_sum), 0, valor_contratadod_sum),
                                                valor_contratadodpcl = inv_hyp(valor_contratadod_sum0/pop_v2), 
                                                valor_contratadodpc = valor_contratadod_sum0/pop_v2, 
                                                valor_contratadodpcl2 = log(1 + valor_contratadodpc), 
                                                treat = ifelse(DESC_SIT_TOT_TURNO == "ELEITO", 1, 0), 
                                                nonzero = ifelse(is.na(pmcmv_num), 0, 1))

empresas_gpp <- empresas_gpp %>% mutate(valor_contratadod_sum0 = ifelse(is.na(valor_contratadod_sum), 0, valor_contratadod_sum),
                                        valor_contratadodpcl = inv_hyp(valor_contratadod_sum0/pop_v2),
                                        valor_contratadodpc = valor_contratadod_sum0/pop_v2, 
                                        valor_contratadodpcl2 = log(1 + valor_contratadodpc), 
                                        treat = ifelse(DESC_SIT_TOT_TURNO == "ELEITO", 1, 0),
                                        nonzero = ifelse(is.na(pmcmv_num), 0, 1))

empresas_gpmdb <- empresas_gpmdb %>% mutate(valor_contratadod_sum0 = ifelse(is.na(valor_contratadod_sum), 0, valor_contratadod_sum),
                                            valor_contratadodpcl = inv_hyp(valor_contratadod_sum0/pop_v2),
                                            valor_contratadodpc = valor_contratadod_sum0/pop_v2, 
                                            valor_contratadodpcl2 = log(1 + valor_contratadodpc), 
                                            treat = ifelse(DESC_SIT_TOT_TURNO == "ELEITO", 1, 0),
                                            nonzero = ifelse(is.na(pmcmv_num), 0, 1))

#Selecting variables

empresas_g_noimp <- empresas_g_noimp %>% dplyr::select(vote_margin_share,
                                                treat,
                                                valor_contratadodpcl,
                                                valor_contratadodpcl2,
                                                TSEcod,
                                                nonzero, ANO_ELEICAO,
                                                p_13, 
                                                p_val,
                                                p_45,
                                                f.nom_13,
                                                f.nom_45,
                                                f.nom_total,
                                                g_13,
                                                g_val,
                                                g_45,
                                                e.nom_13,
                                                e.nom_total,
                                                e.nom_45,
                                                e.nom_total,
                                                Comparecimento1t, 
                                                pop_v2,
                                                X2000_incomepercapita,
                                                X2000_doctor,
                                                X2000_idh_education,
                                                X2000_idh_income,
                                                X2000_idh_longevity,
                                                X2000_illiterate,
                                                X2000_infant,
                                                X2000_pop, 
                                                X2000_poverty)

empresas_gpp <- empresas_gpp %>% dplyr::select(vote_margin_share,
                                        treat,
                                        valor_contratadodpcl,
                                        valor_contratadodpcl2,
                                        TSEcod,
                                        nonzero, ANO_ELEICAO,
                                        p_13, 
                                        p_val,
                                        p_45,
                                        f.nom_13,
                                        f.nom_45,
                                        f.nom_total,
                                        g_13,
                                        g_val,
                                        g_45,
                                        e.nom_13,
                                        e.nom_total,
                                        e.nom_45,
                                        e.nom_total,
                                        Comparecimento1t, 
                                        pop_v2,
                                        X2000_incomepercapita,
                                        X2000_doctor,
                                        X2000_idh_education,
                                        X2000_idh_income,
                                        X2000_idh_longevity,
                                        X2000_illiterate,
                                        X2000_infant,
                                        X2000_pop, 
                                        X2000_poverty)

save(empresas_g_noimp, file = "Data/empresas_g_noimppt.Rda")
save(empresas_gpp, file = "Data/empresas_gpp.Rda")

#####Funding data (time since election for funding)

elected <- electionsff %>% mutate(cycle = ifelse(ANO_ELEICAO == 2008, 1, 
                                                 ifelse(ANO_ELEICAO == 2012, 2, 0))) %>% 
  filter(TYPE_ELECTION == "regular", cycle != 0, 
         DESC_SIT_TOT_TURNO == "ELEITO") %>% 
  rename(TSEcod = SIGLA_UE)

lai1 <- lai %>% mutate(dist = ifelse(cycle == 1, years - 2008, 
                                     ifelse(cycle == 2, years - 2012, 
                                            NA)))

lai1 <- lai1 %>% group_by(TSEcod, years, cycle) %>% summarise(mean_dist = mean(dist))

lai2 <- lai1 %>% left_join(elected, by = c("TSEcod", "cycle"))

lai2 <- lai2 %>% mutate(pt = ifelse(SIGLA_PARTIDO == "PT", 1, 0), 
                        pp = ifelse(SIGLA_PARTIDO == "PP", 1, 0), 
                        psdb = ifelse(SIGLA_PARTIDO == "PSDB", 1, 0))


#Selecting variables

lai2 <- lai2 %>% dplyr::select(mean_dist, pt, pp, psdb, cycle, years, TSEcod)

save(lai2, file = "Data/lai2.Rda")
